內容簡介
主要內容包括:機率論的基本概念、隨機變數及其機率分布、數字特徵、大數定律與中心極限定理、統計量及其機率分布、參數估計和假設檢驗、回歸分析、方差分析、馬爾科夫鏈等內容。
課程描述
機率論與數理統計是數學的一個有特色且又十分活躍的分支,一方面,它有別開生面的研究課題,有自己獨特的概念和方法,內容豐富,結果深刻;另一方面,它與其他學科又有緊密的聯繫,是近代數學的重要組成部分。由於它近年來突飛猛進的發展與套用的廣泛性,目前已發展成為一門獨立的一級學科。機率論與數理統計的理論與方法已廣泛套用於工業、農業、軍事和科學技術中,如預測和濾波套用於空間技術和自動控制,時間序列分析套用於石油勘測和經濟管理,馬爾科夫過程與點過程統計分析套用於地震預測等,同時他又向基礎學科、工科學科滲透,與其他學科相結合發展成為邊緣學科,這是機率論與數理統計發展的一個新趨勢。 (孔繁亮)
考研相關
題型總結
目前,大部分同學開始了機率論和數理統計的複習,本文主要想對同學們近期的複習做一個簡單的指導。機率論與數理統計初步主要考查考生對研究隨機現象規律性的基本概念、基本理論和基本方法的理解,以及運用機率統計方法分析和解決實際問題的能力。常有的題型有:填空題、選擇題、計算題和證明題,試題的主要類型有:
(1)確定事件間的關係,進行事件的運算;
(2)利用事件的關係進行機率計算;
(3)利用機率的性質證明機率等式或計算機率;
(4)有關古典概型、幾何概型的機率計算;
(5)利用加法公式、條件機率公式、乘法公式、全機率公式和貝葉斯公式計算機率;
(6)有關事件獨立性的證明和計算機率;
(7)有關獨重複試驗及伯努利機率型的計算;
(8)利用隨機變數的分布函式、機率分布和機率密度的定義、性質確定其中的未知常數或計算機率;
(9)由給定的試驗求隨機變數的分布;
(10)利用常見的機率分布(例如(0-1)分布、二項分布、泊松分布、幾何分布、均勻分布、指數分布、常態分配等計算機率;
(11)求隨機變數函式的分布(12)確定二維隨機變數的分布;
(13)利用二維均勻分布和常態分配計算機率;
(14)求二維隨機變數的邊緣分布、條件分布;
(15)判斷隨機變數的獨立性和計算機率;
(16)求兩個獨立隨機變數函式的分布;
(17)利用隨機變數的數學期望、方差的定義、性質、公式,或利用常見隨機變數的數學期望、方差求隨機變數的數學期望、方差;
(18)求隨機變數函式的數學期望;
(19)求兩個隨機變數的協方差、相關係數並判斷相關性;
(20)求隨機變數的矩和協方差矩陣;
(21)利用切比雪夫不等式推證機率不等式;
(22)利用中心極限定理進行機率的近似計算;
(23)利用t分布、χ2分布、F分布的定義、性質推證統計量的分布、性質;
(24)推證某些統計量(特別是正態總體統計量)的分布;
(25)計算統計量的機率;
(26)求總體分布中未知參數的矩估計量和極大似然估計量;
(27)判斷估計量的無偏性、有效性和一致性;
(28)求單個或兩個正態總體參數的置信區間;
(29)對單個或兩個正態總體參數假設進行顯著性檢驗;
(30)利用χ2檢驗法對總體分布假設進行檢驗。
這一部分主要考查機率論與數理統計的基本概念、基本性質和基本理論,考查基本方法的套用。對歷年的考題進行分析,可以看出機率論與數理統計的試題,即使是填空題和選擇題,只考單一知識點的試題很少,大多數試題是考查考生的理解能力和綜合套用能力。要求考生能靈活地運用所學的知識,建立起正確的機率模型,綜合運用極限、連續函式、導數、極值、積分、廣義積分以及級數等知識去解決問題。
在解答這部分考題時,考生易犯的錯誤有:
(1)概念不清,弄不清事件之間的關係和事件的結構;
(2)對試驗分析錯誤,機率模型搞錯;
(3)計算機率的公式運用不當;
(4)不能熟練地運用獨立性去證明和計算;
(5)不能熟練掌握和運用常用的機率分布及其數字特徵;
(6)不能正確套用有關的定義、公式和性質進行綜合分析、運算和證明。
專業輪廓
在自然界和人類的日常生活中,隨機現象非常普遍,比如每期福利彩票的中獎號碼。機率論是根據大量同類隨機現象的統計規律,對隨機現象出現某一結果的可能性作出一種客觀的科學判斷,對這種出現的可能性作出一種客觀的科學判斷,並作出數量上的描述;比較這些可能性的大小。數理統計是套用機率的理論研究大量隨機現象的規律性,對通過科學安排的一定數量的實驗所得到的統計方法給出嚴格的理論證明,並判定各種方法套用的條件以及方法、公式、結論的可靠程度和局限性,使人們能從一組樣本判定是否能以相當大的機率來保證某一判斷是正確的,並可以控制發生錯誤的機率。
過來人說
[關鍵字] 研究熱點
羅燕(2007級機率論與數理統計碩士研究生):現在套用統計方向的研究越來越熱了,套用統計更貼近生活,所以越來越被各行各業注重。但是我們不要忘了統計的基礎是機率。機率方面的研究仍然值得重視。
宋高陽(2007級機率論與數理統計碩士研究生):統計學主要方向有隨機理論、數據分析、金融統計等,就現在的情況來看,數據分析和數據挖掘會比較熱門,因為套用的範圍更廣一些。如果研究生畢業之後選擇工作,套用性較強的學科是最好的選擇。
[關鍵字] 建議
宋高陽(2007級機率論與數理統計碩士研究生):國內許多高校將統計學和金融學劃歸為一類,成立金融與統計學院或者直接統計學劃歸為經濟系。這非常好理解,因為經濟學和金融學都是以統計為基本方法的。但作為數學二級學科的統計學的範疇卻和金融統計相去甚遠,學術成分也更高一些。統計學以機率論為基礎,理論性更強,對隨機過程、機率極限、回歸分析等基礎知識的要求也更高。其實,統計學也不僅僅只是在金融學方面才有用武之地,回到開篇提到的“生物統計學”,就是當仁不讓的熱門“頭牌”,這就要考生在報考時注意自己選擇的到底是經濟學院的統計學,還是數學系的統計學。
跨考院校推薦
北京師範大學的機率論研究群體歷經三代人,已有40年的傳統和積累,擁有陳木法、李增滬、張餘輝、王鳳雨等著名的專家學者。這一研究群體被國際上的兩個主要數學評論雜誌譽為“馬氏過程的中國學派”或“北京學派”。主要研究方向有互動作用粒子系統、隨機分析、測度值馬氏過程等。機率論和數理統計學科實力較強的院校還有南開大學、中南大學、東北師範大學、武漢大學、華中科技大學、中國科學技術大學等。
數學這棵大樹歷經多年的發展已經枝繁葉茂。一般重點大學的數學系都會有數十位甚至上百位教授或講師,每位的研究方向都不一樣,它們彼此的差異就好比達文西的雞蛋,再加上與各種學科的交叉和發展,又產生了更多的新分支方向。也正因為這樣,數學這門學科才會如此豐富多姿。
怎樣學“機率論與數理統計”
“機率論與數理統計”是理工科大學生的一門必修課程,也是報考碩士研究生時數學試卷中重要內容之一[數學一和數學三都是占22%(機率論)]。由於該學科與生活實踐和科學試驗有著緊密的聯繫,是許多新發展的前沿學科(如控制論、資訊理論、可靠性理論、人工智慧等)的基礎,因此學好這一學科是十分重要的。
首先我們從歷屆考研成績進行分析,觀察一下高等數學與機率統計之間有什麼差異其一是機率統計的平均得分率往往低於高等數學平均得分率.其二高等數學的得分分布呈兩頭小中間大現象,即低分和高分比例小,而中間分數段比例大,而機率統計的得分率卻是低分多, 中間分數少,高分較多的現象.為什麼會發生上述差異?經分析發現雖然高等數學與機率統計同屬數學學科,但各有自己的特點. 高等數學主要是通過學習極限、導數和積分等知識解決有關(一維或多維)函式的有關性質和圖象的問題, 它與中學的數學有著密切聯繫而且有著相同的思想方法和解題思路.因而在概念上理解比較容易接受(當然也有比較抽象的內容如中值定理等).另一方面由於涉及許多具體初等函式,在求導數和積分時有許多計算上的技巧,需要大量練習以熟練掌握這些技巧,因而部分學生即使概念不十分清楚,但仍能正確解答相當多的試題,在考研中得到一定的成績。
而在“機率論與數理統計”的學習中更注重的是概念的理解,而這正是廣大學生所疏忽的,在考研複習時幾乎有近一半以上學生對“什麼是隨機變數”、“為什麼要引進隨機變數”仍說不清楚.對於涉及隨機變數的獨立,不相關等概念更是無從著手,這一方面是因為高等數學處理的是“確定”的事件.如函式y=f(x),當x確定後y有確定的值與之對應.而機率論中隨機變數X在抽樣前是不確定的,我們只能由隨機試驗確定它落在某一區域中的機率,要建立用“不確定性”的思維方法往往比較困難,如果套用確定性的思維方法就會出錯.由於基本概念沒有搞懂,即使是十分簡單的題目也難以得分.從而造成低分多的現象.另一方面由於機率論中涉及的計算技巧不多,除了古典概型,幾何概型和計算二維隨機變數的函式分布時如何確定積分上、下限有一些計算的難點,其他的只是數值或者積分、導數的計算.因而如果概念清楚,那么解題往往很順利且易得到正確答案,這正是高分較多的原因。
根據上面分析,啟示我們不能把高等數學的學習方法照搬到“機率統計”的學習上來,而應按照機率統計自身的特點提出學習方法,才能取得“事半功倍”的效果.下面我們分別對“機率論”和“數理統計”的學習方法提出一些建議。
一、 學習“機率論”要注意以下幾個要點
1. 在學習“機率論”的過程中要抓住對概念的引入和背景的理解,例如為什麼要引進“隨機變數”這一概念。這實際上是一個抽象過程。正如小學生最初學數學時總是一個蘋果加2個蘋果等於3個蘋果,然後抽象為1+2=3.對於具體的隨機試驗中的具體隨機事件,可以計算其機率,但這畢竟是局部的,孤立的,能否將不同隨機試驗的不同樣本空間予以統一,並對整個隨機試驗進行刻畫。隨機變數X(即從樣本空間到實軸的單值實函式)的引進使原先不同隨機試驗的隨機事件的機率都可轉化為隨機變數落在某一實數集合B的機率,不同的隨機試驗可由不同的隨機變數來刻畫. 此外若對一切實數集合B,知道P(X∈B). 那么隨機試驗的任一隨機事件的機率也就完全確定了.所以我們只須求出隨機變數X的分布P(X∈B). 就對隨機試驗進行了全面的刻畫.它的研究成了機率論的研究中心課題.故而隨機變數的引入是機率論發展歷史中的一個重要里程碑.類似地,機率公理化定義的引進,分布函式、離散型和連續型隨機變數的分類,隨機變數的數學特徵等概念的引進都有明確的背景,在學習中要深入理解體會。
2. 在學習“機率論”過程中對於引入概念的內涵和相互間的聯繫和差異要仔細推敲,例如隨機變數概念的內涵有哪些意義:它是一個從樣本空間到實軸的單值實函式X(w),但它不同於一般的函式,首先它的定義域是樣本空間,不同隨機試驗有不同的樣本空間.而它的取值是不確定的,
隨著試驗結果的不同可取不同值,但是它取某一區間的機率又能根據隨機試驗予以確定的,而我們關心的通常只是它的取值範圍,即對於實軸上任一B,計算機率P(X∈B),即隨機變數X的分布.只有理解了隨機變數的內涵,下面的概念如分布函式等等才能真正理解.又如隨機事件的互不相容和相互獨立兩個概念通常會混淆,前者是事件的運算性質,後者是事件的機率性質,但它們又有一定聯繫,如果P(A)·P(B)>0,則A,B獨立則一定相容.類似地,如隨機變數的獨立和不相關等概念的聯繫與差異一定要真正搞懂。
3. 搞懂了機率論中的各個概念,一般具體的計算都是不難的,如F(x)=P(X≤x),EX,DX等按定義都易求得.計算中的難點有古典概型和幾何概型的機率計算,二維隨機變數的邊緣分布fx(x)=∫-∞∞ f(x,y)dy,事件B的機率P((X,Y)∈B)=∫∫Bf(x,y)dxdy,卷積公式等的計算,它們形式上很簡單,但是由於f(x,y)通常是分段函式,真正的積分限並不再是(-∞,∞)或B,這時如何正確確定事實上的積分限就成了正確解題的關鍵,要切實掌握。
4. 機率論中也有許多習題,在解題過程中不要為解題而解題,而應理解題目所涉及的概念及解題的目的,至於具體計算中的某些技巧基本上在高等數學中都已學過.因此機率論學習的關鍵不在於做許多習題,而要把精力放在理解不同題型涉及的概念及解題的思路上去.這樣往往能“事半功倍”。
二、 學習“數理統計”要注意以下幾個要點
1. 由於數理統計是一門實用性極強的學科,在學習中要緊扣它的實際背景,理解統計方法的直觀含義.了解數理統計能解決那些實際問題.對如何處理抽樣數據,並根據處理的結果作出合理的統計推斷,該結論的可靠性有多少要有一個總體的思維框架,這樣,學起來就不會枯燥而且容易記憶.例如估計未知分布的數學期望,就要考慮到① 如何尋求合適的估計量的途徑,②如何比較多個估計量的優劣?這樣,針對①按不同的統計思想可推出矩估計和極大似然估計,而針對②又可分為無偏估計、有效估計、相合估計,因為不同的估計名稱有著不同的含義,一個具體估計量可以滿足上面的每一個,也可能不滿足.掌握了尋求估計的統計思想,具體尋求估計的步驟往往是“套路子”的,並不困難,然而如果沒有從根本上理解,僅死背套路子往往會出現各種錯誤。
2. 許多同學在學習數理統計過程中往往抱怨公式太多,置信區間,假設檢驗表格多而且記不住.事實上概括起來只有八個公式需要記憶,而且它們之間有著緊密聯繫,並不難記,而區間估計和假設檢驗中只是這八個公式的不同運用而已,關鍵在於理解區間估計和假設檢驗的統計意義,在理解基礎上靈活運用這八個公式,完全沒有必要死記硬背。
產生和發展
(陳希孺訪談)
記者:陳希孺院士,請你談談機率論與數理統計學學科的誕生和發展情況。
陳希孺院士:先從數理統計學開始,數理統計學是研究收集數據、分析數據並據以對所研究的問題作出一定的結論的科學和藝術。數理統計學所考察的數據都帶有隨機性(偶然性)的誤差。這給根據這種數據所作出的結論帶來了一種不確定性,其量化要藉助於機率論的概念和方法。數理統計學與機率論這兩個學科的密切聯繫,正是基於這一點。
統計學起源於收集數據的活動,小至個人的事情,大至治理一個國家,都有必要收集種種有關的數據,如在我國古代典籍中,就有不少關於戶口、錢糧、兵役、地震、水災和旱災等等的記載。現今各國都設有統計局或相當的機構。當然,單是收集、記錄數據這種活動本身並不能等同於統計學這門科學的建立,需要對收集來的數據進行排比、整理,用精煉和醒目的形式表達,在這個基礎上對所研究的事物進行定量或定性估計、描述和解釋,並預測其在未來可能的發展狀況。例如根據人口普查或抽樣調查的資料對我國人口狀況進行描述,根據適當的抽樣調查結果,對受教育年限與收入的關係,對某種生活習慣與嗜好(如吸菸)與健康的關係作定量的評估。根據以往一般時間某項或某些經濟指標的變化情況,預測其在未來一般時間的走向等,做這些事情的理論與方法,才能構成一門學問——數理統計學的內容。
這樣的統計學始於何時?恐怕難於找到一個明顯的、大家公認的起點。一種受到某些著名學者支持的觀點認為,英國學者葛朗特在1662年發表的著作《關於死亡公報的自然和政治觀察》,標誌著這門學科的誕生。中世紀歐洲流行黑死病,死亡的人不少。自1604年起,倫敦教會每周發表一次“死亡公報”,記錄該周內死亡的人的姓名、年齡、性別、死因。以後還包括該周的出生情況——依據受洗的人的名單,這基本上可以反映出生的情況。幾十年來,積累了很多資料,葛朗特是第一個對這一龐大的資料加以整理和利用的人,他原是一個小店主的兒子,後來子承父業,靠自學成才。他因這一部著作被選入當年成立的英國皇家學會,反映學術界對他這一著作的承認和重視。
這是一本篇幅很小的著作,主要內容為8個表,從今天的觀點看,這只是一種例行的數據整理工作,但在當時則是有原創性的科研成果,其中所提出的一些概念,在某種程度上可以說沿用至今,如數據簡約(大量的、雜亂無章的數據,須注過整理、約化,才能突出其中所包含的信息)、頻率穩定性(一定的事件,如“生男”、“生女”,在較長時期中有一個基本穩定的比率,這是進行統計性推斷的基礎)、數據糾錯、生命表(反映人群中壽命分布的情況,至今仍是保險與精算的基礎概念)等。
葛朗特的方法被他同時代的政治經濟學家佩蒂引進到社會經濟問題的研究中,他提倡在這類問題的研究中不能尚空談,要讓實際數據說話,他的工作總結在他去世後於1690年出版的《政治算術》一書中。
當然,也應當指出,他們的工作還停留在描述性的階段,不是現代意義下的數理統計學,那時,機率論尚處在萌芽的階段,不足以給數理統計學的發展提供充分的理論支持,但不能由此否定他們工作的重大意義,作為現代數理統計學發展的幾個源頭之一,他們以及後續學者在人口、社會、經濟等領域的工作,特別是比利時天文學家兼統計學家凱特勒19世紀的工作,對促成現代數理統計學的誕生起了很大的作用。
數理統計學的另一個重要源頭來自天文和測地學中的誤差分析問題。早期,測量工具的精度不高,人們希望通過多次量測獲取更多的數據,以便得到對量測對象的精度更高的估計值。量測誤差有隨機性,適合於用機率論即統計的方法處理,遠至伽利略就做過這方面的工作,他對測量誤差的性態作了一般性的描述,法國大數學家拉普拉斯曾對這個問題進行了長時間的研究,現今機率論中著名的“拉普拉斯分布”,即是他在這研究中的一個產物,這方面最著名且影響深遠的研究成果有二:一是法國數學家兼天文家勒讓德19世紀初(1805)在研究慧星軌道計算時發明的“最小二乘法”,他在估計過巴黎的子午線長這一工作中,曾使用這個方法。現今著作中把這一方法的發明歸功於高斯,但高斯使用這一方法最早見諸文字是1809年,比勒讓德晚。一種現在逐步取得公認——這項發明系由二人獨立做出,看來使比較妥當的。另外一個重要成果是德國大學者高斯1809年在研究行星繞日運動時提出用常態分配刻畫測量誤差的分布。常態分配也常稱為高斯分布,其曲線是鐘形,極象頤和園中玉帶橋那樣的形狀,故有時又稱為“鐘形曲線”,它反映了這樣一種極普通的情況:天下形形色色的事物中,“兩頭小,中間大”的居多,如人的身高,太高太矮的都不多,而居於中間者占多數——當然,這只是一個極粗略的描述,要作出準確的描述,須動用高等數學的知識。正是其數學上的特性成為其廣泛套用的根據。
常態分配在數理統計學中占有極重要的地位,現今仍在常用的許多統計方法,就是建立在“所研究的量具有或近似地具有常態分配”這個假定的基礎上,而經驗和理論(機率論中所謂“中心極限定理”)都表明這個假定的現實性,現實世界許多現象看來是雜亂無章的,如不同的人有不同的身高、體重。大批生產的產品,其質量指標各有差異 。看來毫無規則,但它們在總體上服從常態分配。這一點,顯示在紛亂中有一種秩序存在,提出常態分配的高斯,一生在多個領域裡面有不少重大的貢獻,但在德國10馬克的有高斯圖像的鈔票上,單只畫出了正態曲線,以此可以看出人們對他這一貢獻評價之高。
20世紀以前數理統計學發展的一個重要成果,是19世紀後期由英國遺傳學家兼統計學家高爾頓發起,並經現代統計學的奠基人之一K·皮爾遜和其他一些英國學者所發展的統計相關與回歸理論。所謂統計相關,是指一種非決定性的關係如人的身高X與體重Y,存在一種大致的關係,表現在X大(小)時,Y也傾向於大(小),但非決定性的:由X並不能決定Y。現實生活中和各種科技領域中,這種例子很多,如受教育年限與收入的關係,經濟發展水平與人口增長速度的關係等,都是屬於這種性質,統計相關的理論把這種關係的程度加以量化,而統計回歸則是把有統計相關的變數,如上文的身高X和體重Y的關係的形式作近似的估計,稱為回歸方程,現實世界中的現象往往涉及眾多變數,它們之間有錯綜複雜的關係,且許多屬於非決定性質,相關回歸理論的發明,提供了一種通過實際觀察去對這種關係進行定量研究的工具,有著重大的認識和實用意義。
到20世紀初年,由於上述幾個方面的發展,數理統計學已積累了很豐富的成果——在此因篇幅關係,我們不能詳盡無遺地一一列舉有關的重要成果,如抽樣調查的理論和方法方面的進展,但是直到這時為止,我們還不能說現代意義下的數理統計學已經建立起來,其主要標誌之一就是這門學問還缺乏一個統一的理論框架,這個任務在20世紀上半葉得以完成,狹義一點說可界定在1921——1938年,起主要作用的是幾位大師級的人物,特別是英國的費歇爾·K·皮爾遜,發展統計假設檢驗理論的奈曼與E·皮爾遜和提出統計決策函式理論的瓦爾德等。我國已故著名統計學家許寶(1910——1970)在這項工作中也卓有建樹。
自二戰結束迄今,數理統計學有了迅猛的發展,主要有以下三方面的原因:一是數理統計學理論框架的建立以及機率論和數學工具的進展,為統計理論在面上和向縱深的發展打開了門徑和提供了手段,許多在早期比較粗略的理論和方法,在理論上得到了完善與深入,並不斷提出新的研究課題;二是實用上的需要,不斷提出了複雜的問題與模型,吸引了學者們的研究興趣;三是電子計算機的發明與普及套用,一方面提供了必要的計算工具——統計方法的實施往往涉及大量數據的處理與運算,用人力無法在合理的時間內完成,所以在早年,一些統計方法人們雖然知道,但很少付諸實用,就因為是人力所難及。計算機的出現解決了這個問題。而賦予統計方法以現實的生命力。同時,計算機對促進統計理論研究也有助益,統計模擬是其表現之一,在承認上述成就的同時,不少統計學家也指出這一時期發展中出現的一些問題或偏向,其中主要的一點是,數理統計學理論研究中的“數學化”氣味愈來愈重,相當一部分研究工作停留在數學的層面,早期那種理論研究與現實問題密切結合的優良傳統有所淡化,一些學者還提出了補救的建議,對未來統計學發展的方向進行探討。同時,現實問題愈來愈涉及到大量的,結構複雜的數據,按現行的數理統計學規範去處理,顯得力所不及,需要一些帶有根本性創新的思路,使統計學的發展登上一個新的台階,以適應套用上的需要,考慮這一背景,有的統計學家樂觀地認為數理統計學正面臨一個新的突破。
在上面講述數理統計學的發展狀況時,我們著重在實際需要所起的促進作用方面,由於機率論的概念和方法是數理統計學的理論基礎,機率論的進展也必然對數理統計學的發展起促進作用。
機率,又稱幾率,或然率,指一種不確定的情況出現可能性的大小,例如,投擲一個硬幣,“出現國徽”(國徽一面朝上)是一個不確定的情況。因為投擲前,我們無法確定所指情況(“出現國徽”)發生與否,若硬幣是均勻的且投擲有充分的高度,則兩面的出現機會均等,我們說“出現國徽”的機率是1/2;同時,投擲一個均勻骰子,“出現4點”的機率是1/6,除了這些以及類似的簡單情況外,機率的計算不容易,往往需要一些理論上的假定,在現實生活中則往往用經驗的方法確定機率,例如某地區有N人,查得其中患某種疾病者有M人,則稱該地區的人患該種疾病的機率為M/N,這事實上是使用統計方法對發病機率的一個估計。
機率的概念起源於中世紀以來的歐洲流行的用骰子賭博,這一點不難理解,某種情況出現可能性的大小要能夠體察並引起研究的興趣,必須滿足兩個條件:一是該情況可以在多次重複中被觀察其發生與否(在多次重複下出現較頻繁的情況有更大的機率),一是該情況發生與否與當事人的利益有關或為其興趣關注之所在,用骰子賭博滿足這些條件。
當時有一個“分賭本問題”曾引起熱烈的討論,並經歷了長達一百多年才得到正確的解決。在這過程中孕育了機率論一些重要的基本概念,舉該問題的一個簡單情況:甲、乙二人賭博,各出賭注30元,共60元,每局甲、乙勝的機會均等,都是1/2。約定:誰先勝滿3局則他贏得全部賭注60元,現已賭完3局,甲2勝1負,而因故中斷賭情,問這60元賭注該如何分給2人,才算公平,初看覺得應按2:1分配,即甲得40元,乙得20元,還有人提出了一些另外的解法,結果都不正確,正確的分法應考慮到如在這基礎上繼續賭下去,甲、乙最終獲勝的機會如何,至多再賭2局即可分出勝負,這2局有4種可能結果:甲甲、甲乙、乙甲、乙乙。前3種情況都是甲最後取勝,只有最後一種情況才是乙取勝,二者之比為3:1,故賭注的公平分配應按3:1的比例,即甲得45元,乙15元。
當時的一些學者,如惠更斯、巴斯噶、費爾馬等人,對這類賭情問題進行了許多研究,有的出版了著作,如惠更斯的一本著作曾長期在歐洲作為機率論的教科書,這些研究使原始的機率和有關概念得到發展和深化。不過,在這個機率論的草創階段,最重要的里程碑是伯努利的著作《推測術》。在他死後的1713年發表,這部著作除了總結前人關於賭情的機率問題的成果並有所提高外,還有一個極重要的內容,即如今以他的名字命名的“大數律”,大數律是關於(算術)平均值的定理,算術平均值,即若干個數X1、X2……Xn之和除以n,是最常用的一種統計方法,人們經常使用並深信不疑。但其理論根據何在,並不易講清楚, 就是伯努利的大數律要回答的問題,在某種程度上可以說,這個大數律是整個機率論最基本的規律之一,也是數理統計學的理論基石。
機率論雖發端於賭博,但很快在現實生活中找到多方面的套用,首先是在人口、保險精算等方面,在其發展過程中出現了若干里程碑的《機遇的原理》,其第三版發表於1756年,法國大數學家拉普拉斯的《分析機率論》,發表於1812年,1933年蘇聯教學家柯爾莫哥洛夫完成了機率論的公理體系,在幾條簡潔的公理之下,發展出機率論整座的宏偉建築,有如在歐幾里得公理體系之下發展出整部幾何。自那以來,機率論成長為現代數學的一個重要分支,使用了許多深刻和抽象的數學理論,在其影響下,數理統計的理論也日益向深化的方向發展。
學科歷史
三四百年前在歐洲許多國家,貴族之間盛行賭博之風。擲骰子是他們常用的一種賭博方式。因骰子的形狀為小正方體,當它被擲到桌面上時,每個面向上的可能性是相等的,即出現1點至6點中任何一個點數的可能性是相等的。有的參賭者就想:如果同時擲兩顆骰子,則點數之和為9與點數之和為10,哪種情況出現的可能性較大?
17世紀中葉,法國有一位熱衷於擲骰子遊戲的貴族德·梅耳,發現了這樣的事實:將一枚骰子連擲四次至少出現一個六點的機會比較多,而同時將兩枚骰子擲24次,至少出現一次雙六的機會卻很少。
這是什麼原因呢?後人稱此為著名的德·梅耳問題。又有人提出了“分賭注問題”:
兩個人決定賭若干局,事先約定誰先贏得6局便算贏家。如果在一個人贏3局,另一人贏4局時因故終止賭博,應如何分賭本?
諸如此類的需要計算可能性大小的賭博問題提出了不少,但他們自己無法給出答案。
數學家們“參與”賭博。參賭者將他們遇到的上述問題請教當時法國數學家帕斯卡,帕斯卡接受了這些問題,他沒有立即回答,而把它交給另一位法國數學家費爾馬。他們頻頻通信,互相交流,圍繞著賭博中的數學問題開始了深入細緻的研究。這些問題後來被來到巴黎的荷蘭科學家惠更斯獲悉,回荷蘭後,他獨立地進行研究。
帕斯卡和費爾馬一邊親自做賭博實驗,一邊仔細分析計算賭博中出現的各種問題,終於完整地解決了“分賭注問題”,並將此題的解法向更一般的情況推廣,從而建立了機率論的一個基本概念——數學期望,這是描述隨機變數取值的平均水平的一個量。而惠更斯經過多年的潛心研究,解決了擲骰子中的一些數學問題。1657年,他將自己的研究成果寫成了專著《論擲骰子遊戲中的計算》。這本書迄今為止被認為是機率論中最早的論著。因此可以說早期機率論的真正創立者是帕斯卡、費爾馬和惠更斯。這一時期被稱為組合機率時期,計算各種古典機率。
在他們之後,對機率論這一學科做出貢獻的是瑞士數學家族——貝努利家族的幾位成員。雅可布·貝努利在前人研究的基礎上,繼續分析賭博中的其他問題,給出了“賭徒輸光問題”的詳盡解法,並證明了被稱為“大數定律”的一個定理,這是研究等可能性事件的古典機率論中的極其重要的結果。大數定律證明的發現過程是極其困難的,他做了大量的實驗計算,首先猜想到這一事實,然後為了完善這一猜想的證明,雅可布花了20年的時光。雅可布將他的全部心血傾注到這一數學研究之中,從中他發展了不少新方法,取得了許多新成果,終於將此定理證實。
1713年,雅可布的著作《猜度術》出版。遺憾的是在他的大作問世之時,雅可布已謝世8年之久。聖彼得堡悖論是數學家丹尼爾·伯努利(Daniel Bernoulli)的表兄尼古拉·伯努利(Nicola Bernoulli)在1738提出的一個機率期望值悖論,它來自於一種擲幣遊戲,即聖彼得堡遊戲(表1)。設定擲出正面或者反面為成功,遊戲者如果第一次投擲成功,得獎金2元,遊戲結束;第一次若不成功,繼續投擲,第二次成功得獎金4元,遊戲結束;這樣,遊戲者如果投擲不成功就反覆繼續投擲,直到成功,遊戲結束。如果第n次投擲成功,得獎金2元,遊戲結束。。問在賭博開始前甲應付給乙多少盧布才有權參加賭博而不致虧損乙方?
尼古拉同時代的許多數學家研究了這個問題,並給出了一些不同的解法。但其結果是很奇特的,所付的款數竟為無限大。即不管甲事先拿出多少錢給乙,只要賭博不斷地進行,乙肯定是要賠錢的。
隨著18、19世紀科學的發展,人們注意到某些生物、物理和社會現象與機會遊戲相似,從而由機會遊戲起源的機率論被套用到這些領域中,同時也大大推動了機率論本身的發展。
法國數學家拉普拉斯將古典機率論向近代機率論進行推進,他首先明確給出了機率的古典定義,並在機率論中引入了更有力的數學分析工具,將機率論推向一個新的發展階段。他還證明了“棣莫弗——拉普拉斯定理”,把棣莫弗的結論推廣到一般場合,還建立了觀測誤差理論和最小二乘法。拉普拉斯於1812年出版了他的著作《分析的機率理論》,這是一部繼往開來的作品。這時候人們最想知道的就是機率論是否會有更大的套用價值?是否能有更大的發展成為嚴謹的學科。
機率論在20世紀再度迅速地發展起來,則是由於科學技術發展的迫切需要而產生的。1906年,俄國數學家馬爾科夫提出了所謂“馬爾科夫鏈”的數學模型。1934年,前蘇聯數學家辛欽又提出一種在時間中均勻進行著的平穩過程理論。
如何把機率論建立在嚴格的邏輯基礎上,這是從機率誕生時起人們就關注的問題,這些年來,好多數學家進行過嘗試,終因條件不成熟,一直拖了三百年才得以解決。
20世紀初完成的勒貝格測度與積分理論及隨後發展的抽象測度和積分理論,為機率公理體系的建立奠定了基礎。在這種背景下柯爾莫哥洛夫1933年在他的《機率論基礎》一書中首次給出了機率的測度論式定義和一套嚴密的公理體系。他的公理化方法成為現代機率論的基礎,使機率論成為嚴謹的數學分支。
現在,機率論與以它作為基礎的數理統計學科一起,在自然科學,社會科學,工程技術,軍事科學及工農業生產等諸多領域中都起著不可或缺的作用。
直觀地說,衛星上天,飛彈巡航,飛機製造,宇宙飛船遨遊太空等都有機率論的一份功勞;及時準確的天氣預報,海洋探險,考古研究等更離不開機率論與數理統計;電子技術發展,影視文化的進步,人口普查及教育等同機率論與數理統計也是密不可分的。
根據機率論中用投針試驗估計π值的思想產生的蒙特卡羅方法,是一種建立在機率論與數理統計基礎上的計算方法。藉助於電子計算機這一工具,使這種方法在核物理、表面物理、電子學、生物學、高分子化學等學科的研究中起著重要的作用。
機率論作為理論嚴謹,套用廣泛的數學分支正日益受到人們的重視,並將隨著科學技術的發展而得到發展。
實際套用
機率統計理論與方法的套用幾乎遍及所有科學技術領域、工農業生產和國民經濟的各個部門中.
例如:1.氣象、水文、地震預報、人口控制及預測都與機率論緊密相關;
2.產品的抽樣驗收,新研製的藥品能否在臨床中套用,均需要用到 假設檢驗;
3.尋求最佳生產方案要進行實驗設計和數據處理;
4.電子系統的設計, 火箭衛星的研製與發射都離不開可靠性估計;
5.處理通信問題, 需要研究資訊理論
6.探討太陽黑子的變化規律時,時間序列分析方法非常有用;
7.研究化學反應的時變率,要以馬爾可夫過程來描述;
8.在生物學中研究群體的增長問題時提出了生滅型隨機模型,傳染病流行問題要用到多變數非線性生滅過程;
9.許多服務系統,如電話通信、船舶裝卸、機器維修、病人候診、存貨控制、可用一類機率模型來描述,其涉及到的知識就是排隊論。
目前,機率統計理論進入其他自然科學領域的趨勢還在不斷發展.在社會科學領域 ,特別是經濟學中研究最優決策和經濟的穩定增長等問題,都大量採用 機率統計方法.法國數學家拉普拉斯(Laplace)說對了:“生活中最重要的問題 , 其中絕大多數在實質上只是機率的問題.”英國的邏輯學家和經濟學家傑文斯曾對機率論大加讚美:“機率論是生活真正的領路人,如果沒有對機率的某種估計, 那么我們就寸步難行,無所作為。